查看原文
其他

论文推荐| [CVPR 2019] DynTypo: 基于样例的动态文本特效迁移

门怡芳 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍CVPR 2019论文“Example-based Dynamic Text Effects Transfer”的主要工作。本文基于传统纹理合成技术提出了一种全新的动态文字特效迁移方法,能够实现动态特效在不同文本之间的自动迁移,生成大量时序稳定、风格还原度高的逼真动态特效字。



一、研究背景

风格迁移技术作为计算机视觉和图形学领域的一个研究热点,能够实现风格纹理在不同内容之间的迁移,视频风格迁移则是图像风格迁移在时序空间上的拓展,而最直接的实现方法则是逐帧进行图像特效迁移,在帧与帧之间通过时序引导方式添加时序限制[6,7,2],即依据目标运动流对当前帧预测下一帧结果,用于引导下一帧的合成,从而实现帧与帧之间时序上的相干性,防止出现时序纹理错误,如闪烁、抖动等。但由于动态文字特效包含多种子效果、甚至将静态特效和动态特效相融合(如火焰燃烧的铁锈字效,既包含动态火焰效果,又包含静态铁锈效果),具有一定的复杂性,即使增添时序引导项依旧难以生成静态效果稳定不动、动态效果自然流畅的动态特效字,静态特效纹理会产生剧烈的闪烁、抖动,并且现有的静态文本特效迁移方法[4,5]对于设计性强、逼真强烈的流体特效,难以提供正确的空间分布引导,导致风格特效迁移不完整甚至失败。

动画风格化技术[1,2,3]通过输入一张素材风格图、一段目标动画,利用传统纹理合成或深度学习方法风格化目标动画,使其带有素材风格图的风格特征。但本文只输入单张目标文本图,不同于之前方法中输入动态的目标动画,因而无法直接评估目标运动流,提供时序上的预测和引导,而通过素材风格动画中运动流进行目标映射的方法亦存在较大的误差,使得现有动画风格化方法无法在本文场景中生成动态效果稳定、流畅的动态特效字。

综上,现有的风格迁移技术存在着动态纹理闪烁、抖动等时序问题,以及复杂流体特效效果丢失、迁移不完整等外观问题,在没有目标动画输入时无法生成动态效果稳定、流畅的动态特效字。


二、方法原理简述
本文方法通过输入一段素材动态特效字(包含其对应的素材文本图)、一张目标文本图,从而自动生成目标动态特效字,使目标文本图的文本拥有素材动态特效字中的动态效果。问题描述如图1所示。


本文方法不再采用逐帧进行风格迁移的处理流,而将整个视频在三维空间上看作一个整体,通过提取关键帧及构建时空相干项将二维图像中的图像块拓展到时序维度成为时空块,随后结合时空相干项和文本引导项构建目标函数,最后采用改进的PatchMatch算法在目标函数的引导下对目标视频时空块在素材视频中进行最近邻匹配,从而实现目标动态纹理合成。该改进的PatchMatch算法通过引入距离权重图和模拟退火算法实现了深度的、有方向引导的匹配搜索,能够更充分地将素材纹理风格迁移到目标图中。具体包括如下步骤:

1. 关键帧提取

通过逐帧计算特效粒子的新生、消亡数目并绘制生存状态发生变化的粒子数目随帧序号变化的折线图,提取满足最小间隔的峰值对应的帧序号作为特效形态差异变化较大的帧,将其定义为关键帧;对每一幅素材风格动画提取得到多个关键帧;每个关键帧对应一幅素材风格图。

2. 时空相干项构建

通过计算各个关键帧上对应的素材风格图与目标风格图的图像块在RGB空间上的距离(L2距离),再将各关键帧上对应的素材风格图和目标风格图的图像块之间的距离相加,得到时空块之间的距离,即时空相干项。其示意图如图2所示。


3. 基于改进PatchMatch的纹理合成
(1)建立目标函数,目标函数由时空相干项和文本引导项构成。其中文本引导项通过计算素材文本图的图像块与目标文本图的图像块在RGB空间上的L2范式得到,时空相干项构建方法如上所述。
(2)利用改进的PatchMatch算法对素材风格动画的素材时空块和目标风格动画的目标时空块之间进行最近邻匹配,该算法在传统PatchMatch方法的基础上引入了基于权重地图进行方向引导以及基于模拟退火算法进行深度传播的匹配关系传播方法。

①基于权重地图的方向引导的传播方法。首先计算目标文本图中每个像素点到文本边缘轮廓的最近距离,生成距离图,依据该距离图得到目标文本图的每个图像块中各个像素点的权重值,记为权重地图。权重值与距离值之间成负相关,相关关系为指数相关,因此,距离文本轮廓线较近的像素点有较高的权重值。该权重地图通过控制各像素点在计算图像块的相似性(目标函数中各引导项的本质即为衡量图像块之间的相似性,计算图像块之间L2距离时需将各像素点L2距离加权相加,通过权重地图提供各像素点的权重)时的权重以及目标风格图重建时各像素点的权重,引导纹理从文本轮廓边缘向四周合成。

②基于模拟退火算法的深度传播。首先设置初始温度、终止温度,并初始化最近邻匹配结果。在进行PatchMatch的邻域传播时,计算候选解对应的目标方程值,若该值小于当前解下的目标方程值,则采用候选解替换当前解,当前解更新,否则以一定概率接受该解,该接受概率随着温度下降而降低,温度随迭代次数的增多而下降,通过这种动态概率接受的方式,使得初始迭代中更易接受新解,使得纹理进行深度传播,而在后续过程,只有严格满足能量减少的解才能被接受。

(3)目标动态效果生成。依据素材风格图和目标风格图中像素点的对应匹配结果进行目标风格图重建,目标风格图中每个像素点的RGB值为所有覆盖该像素点的图像块对应的最优匹配块在该点的加权平均值,权值由权重地图提供。将该匹配关系施加到每一帧素材风格图上,即可得到目标风格动画。
 
三、实验结果

本文主要通过不同动态特效风格在不同字形下的动态字生成效果展示了方法的有效性,仅需要单张目标文本,能够生成时序稳定、风格还原度高的逼真动态特效字,一些代表性帧下的合成结果如图3所示,完整的视频展示结果见网址https://youtu.be/FkFQ6bV1s-o


图3 对于不同特效风格在不同字形上进行动态特效迁移效果
 

本文在动态字生成任务上和其他State-of-the-arts 方法进行了对比实验,合成结果为特效字视频,图4对一些代表性帧上的对比结果进行了展示。结果表明,该方法相较其他方法能够更好的保证复杂流体特效的时序稳定性,且更有效地保留素材特效字的风格纹理,保持在特效风格上的高度一致性。


图4 其他方法对比结果

四、总结及讨论

本文提出了一种基于样例的动态文本特效迁移方法,通过关键帧提取和时空相干项构建解决了生成动画中纹理闪烁、抖动的时序问题,通过引入距离权重图和模拟退火的改进PatchMatch算法(图像块匹配算法),解决了复杂流体特效效果丢失、迁移不完整的外观问题,从而只需要单张目标文本,即可生成对应的时序稳定、风格还原度高的逼真动态特效字。

本文通过大量实验验证了其在动态特效字生成任务上的有效性及其相对其他方法的优越性,且通过拓展实验展示其在其他任务场景(图标特效迁移、人物表情动画生成等)下具有一定的可拓展性。


五、相关资源
  • DynTypo项目主页:
    https://menyifang.github.io/projects/DynTypo/DynTypo.html
  • DynTypo论文地址: 
    https://menyifang.github.io/projects/DynTypo/DynTypo_files/Paper_DynTypo_CVPR19.pdf
  • DynTypo视频Demo: https://youtu.be/FkFQ6bV1s-o


参考文献
[1] Pierre Benard, Forrester Cole, Michael Kass, Igor Mordatch, James Hegarty,Martin Sebastian Senn, Kurt Fleischer, Davide Pesare, and Katherine Breeden.Stylizing animation by example. ACM Transactions on Graphics (TOG), 32(4):119, 2013.
[2] Jakub Fiser, Ondrej Jamriska, David Simons, Eli Shechtman, Jingwan Lu, PaulAsente, Michal Lukac, and Daniel Sykora. Example-based synthesis of stylized facial animations. ACM Transactions on Graphics (TOG), 36(4):155, 2017.
[3] OndrejJamriska, Jakub Fiser, Paul Asente, Jingwan Lu, Eli Shechtman, and Daniel Sykora.Lazyfluids: appearance transfer for fluid animations. ACM Transactions onGraphics (TOG), 34(4):92, 2015.
[4] ShuaiYang, Jiaying Liu, Zhouhui Lian, and Zongming Guo. Awesome typography:Statistics-based text effects transfer. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pages 7464–7473, 2017.
[5] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, andTrevor Darrell. Multi-content gan for few-shot font style transfer. arXivpreprint arXiv: 1712.00516, 2017.
[6] Mark Browning, Connelly Barnes, Samantha Ritter, and Adam Finkelstein. Stylizedkey frame animation of fluid simulations. In Proceedings of the Workshop onNon-Photorealistic Animation and Rendering, pages 63–70. ACM, 2014.
[7] Jakub Fiser, Ondrej Jamriska, Michal Lukac, Eli Shechtman, Paul Asente, JingwanLu, and Daniel `ykora. Stylit: illumination-guided example-based stylization of 3d renderings. ACM Transactions on Graphics (TOG), 35(4):92, 2016.


原文作者:Yifang Men,Zhouhui Lian,Yingmin Tang,Jianguo Xiao

撰稿:门怡芳

编排:高  学

审校:殷  飞

发布:金连文




免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩回顾



征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。



(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存